现有的通用机器翻译或自然语言生成评估指标有几个问题,在这种情况下,提问(QA)系统无动于衷。为了构建强大的质量检查系统,我们需要具有等效鲁棒评估系统的能力,以验证对问题的模型预测是否类似于地面真相注释。比较基于语义而不是纯字符串重叠的相似性的能力对于公平比较模型并指出现实生活应用中更现实的接受标准很重要。我们首先建立在我们的知识论文的基础上,该论文使用基于变压器的模型指标来评估语义答案的相似性,并在没有词汇重叠的情况下实现与人类判断的更高相关性。我们提出了跨编码器增强双重编码器和Bertscore模型,以进行语义答案相似性,该模型在新的数据集中进行了培训,该数据集由美国公共人物的名称对组成。就我们而言,我们提供了第一个共同参考名称字符串对的数据集及其相似性,可用于培训。机器学习与应用第四届机器学习与应用国际会议(CMLA 2022)6月25日至2022年6月25日,哥本哈根,丹麦批量编辑:David C. Wyld,Dhinaharan Nagamalai(EDS)
translated by 谷歌翻译